circRNAs 定量之 CIRIquant 软件使用介绍
生活很近,也很远
之前我们介绍了 CIRIquant 软件的文章内容,今天来介绍软件的使用方法。目前该软件只支持 python2 的环境,可以使用 conda 新建一个 python2 的分析环境。
1、安装
依赖的软件:
bwa hisat2 stringtie samtools >= 1.9
python 包:
PyYAML argparse pysam numpy scipy scikit-learn
源码安装:
# create and activate virtual env
pip install virtualenv
virtualenv -p /path/to/your/python2/executable venv
source ./venv/bin/activate
# Install CIRIquant and its requirement automatically
tar zxvf CIRIquant.tar.gz
cd CIRIquant
python setup.py install
# Manual installation of required pacakges is also supported
pip install -r requirements.txt
pip 安装:
pip install CIRIquant
2、用法一:circRNA quantifcation
基本参数:
Usage:
CIRIquant [options] --config <config> -1 <m1> -2 <m2>
<config> Config file
<m1> Input mate1 reads (for paired-end data)
<m2> Input mate2 reads (for paired-end data)
Options (defaults in parentheses):
-v Run in verbose mode
-o, --out Output directory (default: current directory)
-e, --log Specific log file (default: sample_prefix.log)
-p, --prefix Output sample prefix (default: input sample name)
-t, --threads Number of CPU threads to use (defualt: 4)
-a, --anchor Minimum anchor length for junction alignment (default: 5)
-l, --library-type Library type, 0: unstranded, 1: read1 match the sense strand, 2: read1 match the antisense strand (default: 0)
--bed User provided Back-Spliced Junction Site in BED format
--circ circRNA prediction results from other tools
--tool Tool name, required when --circ is specified ([CIRI2/CIRCexplorer2/DCC/KNIFE/MapSplice/UROBORUS/circRNA_finder/find_circ])
--RNaseR CIRIquant output file of RNase R data (required for RNase R correction)
--bam Specific hisat2 alignment bam file against reference genome
--no-gene Skip StringTie estimation of gene abundance
注意:
目前,–circ 和 –tool 选项支持来自 CIRI2 / CIRCexplorer2 / DCC / KNIFE / MapSplice / UROBORUS / circRNA_finder / find_circ 的结果。
对于 DCC 和 circRNA_finder 等工具,请手动删除具有相同连接位置但具有相反链的重复 circRNA。
标准化需要基因表达值,如果之后需要运行 DE 分析,请不要使用 --no-gene。
config 示例:
YAML 格式的配置文件:
// Example of config file
name: hg19
tools:
# 软件路径
bwa: /home/zhangjy/bin/bwa
hisat2: /home/zhangjy/bin/hisat2
stringtie: /home/zhangjy/bin/stringtie
samtools: /home/zhangjy/bin/samtools
reference:
# 文件路径
fasta: /home/zhangjy/Data/database/hg19.fa
gtf: /home/zhangjy/Data/database/gencode.v19.annotation.gtf
# 索引路径
bwa_index: /home/zhangjy/Data/database/hg19/_BWAtmp/hg19
hisat_index: /home/zhangjy/Data/database/hg19/_HISATtmp/hg19
对于用户提供的 circRNA 的定量,需要一张床格式的连接位点列表,第 4 列必须是 “chrom:start|end”
格式。例如:
chr1 10000 10099 chr1:10000|10099 . +
chr1 31000 31200 chr1:31000|31200 . -
使用示例:
1、推荐:使用 CIRI2 预测 circRNA:
CIRIquant -t 4 \
-1 ./test_1.fq.gz \
-2 ./test_2.fq.gz \
--config ./chr1.yml \
-o ./test \
-p test
2、使用提供的 BED 格式输入定量 circRNA:
CIRIquant -t 4 \
-1 ./test_1.fq.gz \
-2 ./test_2.fq.gz \
--config ./chr1.yml \
-o ./test \
-p test \
--bed your_circRNAs.bed
3、使用其他工具的结果定量 circRNA:
CIRIquant -t 4 \
-1 ./test_1.fq.gz \
-2 ./test_2.fq.gz \
--config ./chr1.yml \
-o ./test \
-p test \
--circ find_circ_results.txt \
--tool find_circ
输出结果格式:
CIRIquant 的主要输出是一个 GTF 文件,其中包含 circRNA 的 BSJ 和 FSJ reads 的详细信息以及属性列中 circRNA 反向剪接区域的注释。
attributes 列的解释:
3、用法二:RNase R effect correction
当你同时有 RNase R 处理和未经处理的样本时,CIRIquant 可以估计 RNase R 数据中检测到的 circRNAs 处理前的表达水平。
为了去除 RNase R 处理效应,需要两个步骤:
1、用 RNase R 处理过的样品运行 CIRIquant。 2、使用 Step1 中的输出 gtf 文件,使用未经处理的总 RNA 样本,加上特定的 ——RNaseR
参数运行 CIRIquant。
然后,CIRIquant 将输出 RNaseR 数据中检测到的 circRNAs 的估计表达水平,标题行将包含额外的 RNaseR 处理效率信息。
使用示例:
# Step1. Run CIRIquant with RNase R treated data
CIRIquant --config ./hg19.yml \
-1 ./RNaseR_treated_1.fq.gz \
-2 ./RNaseR_treated_2.fq.gz \
--no-gene \
-o ./RNaseR_treated \
-p RNaseR_treated \
-t 6
# Step2. Run CIRIquant with untreated total RNA
CIRIquant --config ./hg19.yml \
-1 ./TotalRNA_1.fq.gz \
-2 ./TotalRNA_2.fq.gz \
-o ./TotalRNA \
-p TotalRNA \
-t 6 \
--RNaseR ./RNaseR_treated/RNaseR_treated.gtf
4、用法三:Differential expression analysis
1、没有生物学重复:
对于没有生物学重复的样品,使用 CIRI_DE 进行差异表达和差异剪接分析:
Usage:
CIRI_DE [options] -n <control> -c <case> -o <out>
<control> CIRIquant result of control sample
<case> CIRIquant result of treatment cases
<out> Output file
Options (defaults in parentheses):
-p p value threshold for DE and DS score calculation (default: 0.05)
-t numer of threads (default: 4)
Example usage:
CIRI_DE -n control.gtf -c case.gtf -o CIRI_DE.tsv
输出结果格式:
2、有生物学重复:
对于生物学重复研究,建议使用 edgeR 的定制分析管道,我们提供 prep_CIRIquant 以生成 circRNA 表达水平/连接比和 CIRI_DE_replicate 矩阵以进行 DE 分析 :
step1:准备配置文件:
CONTROL1 ./c1/c1.gtf C 1
CONTROL2 ./c2/c2.gtf C 2
CONTROL3 ./c3/c3.gtf C 3
CASE1 ./t1/t1.gtf T 1
CASE2 ./t2/t2.gtf T 2
CASE3 ./t3/t3.gtf T 3
默认情况下,前三列是必需的。对于配对的样本,还可以添加一个配对名称列:
然后运行 prep_CIRIquant 总结所有样本中的 circRNA 表达谱:
Usage:
prep_CIRIquant [options]
-i the file of sample list
--lib where to output library information
--circ where to output circRNA annotation information
--bsj where to output the circRNA expression matrix
--ratio where to output the circRNA junction ratio matrix
Example:
prep_CIRIquant -i sample.lst \
--lib library_info.csv \
--circ circRNA_info.csv \
--bsj circRNA_bsj.csv \
--ratio circRNA_ratio.csv
然后可以将这些计数矩阵(CSV 文件)导入 R 中,供 DESeq2 和 edgeR 使用(分别使用 DESeqDataSetFromMatrix 和 DGEList 函数)。
step2:准备 StringTie 的输出文件:
StringTie 的输出应位于 output_dir/gene/prefix_out.gtf 下。需要使用 stringTie 中的 prepDE.py 来生成用于标准化的基因计数矩阵。
例如,可以提供一个文本文件 sample_gene.lst ,其中包含样本 ID 和 StringTie 输出的路径:
CONTROL1 ./c1/gene/c1_out.gtf
CONTROL2 ./c2/gene/c2_out.gtf
CONTROL3 ./c3/gene/c3_out.gtf
CASE1 ./t1/gene/t1_out.gtf
CASE2 ./t2/gene/t2_out.gtf
CASE3 ./t3/gene/t3_out.gtf
然后,运行 prepDE.py -i sample_gene.lst
并使用在当前工作目录下生成的 gene_count_matrix.csv 进行进一步分析。
step3:差异分析:
对于使用 CIRI_DE_replicate 的差异分析,您需要从 Bioconductor 安装 R 环境和 edgeR 包:
Usage:
CIRI_DE_replicate [options]
--lib library information by CIRIquant
--bsj circRNA expression matrix
--gene gene expression matrix
--out output differential expression result
Example:
CIRI_DE_replicate --lib library_info.csv \
--bsj circRNA_bsj.csv \
--gene gene_count_matrix.csv \
--out circRNA_de.tsv
请注意,输出结果是未过滤的,你可以对表达值应用更严格的过滤以获得更可信的结果。
5、药大深秋
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦。
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀Ribo-seq 质控软件:ribosomeProfilingQC
◀...